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摘要 : 【 目的 】 验 证 中 古 时 期 分 词 一 致 性 和 语 料 类 别 对 CRFs 分 词 效率 的 影响 , 在 此 基础 上 进一步 提高 分 词 效 
率 , 降低 人 工 校对 的 工作 量 。[ 方法 】 以 中 古 时 期 的 史书 、 佛 经 、 小 说 类 语 料 为 例 , 针对 中 十 汉语 的 自动 分 词 
问题 , 优化 分 词 原 则 , 运用 CRFs 模型 和 词典 相 结 合 的 方法 , 消除 中 古 汉语 人 工分 词 结果 中 易 出 现 的 分 词 不 一 致 
问题 ; 同时 在 CRFs 分词 中 引入 字符 分 类 ,字典 信息 两 种 特征 , 并 通过 对 比 实验 选取 每 种 特征 最 合适 的 分 词 模板 。 
【 结果 】 实 验 结果 显示 , 分 词 结果 的 总 F 值 在 封闭 测试 中 达到 99% 以 上 , 开放 测试 的 综合 测试 中 也 达到 
89%-95%。[【 局 限 ] 分 词 不 一 致 研究 主要 针对 双 字 词 ,因此 三 字 以 上 词语 (多 字 词 ) 的 识别 效果 稍 有 欠缺 。 【结论 ] 
在 有 效 提 高 分 词 一 致 性 的 前 提 下 , 字符 分 类 、 词 典 标记 特征 能 够 有 效 提高 中 古 汉 语 CRFs 分 词 的 精确 度 。 同 时 本 
文 提 出 的 中 十 汉语 分 词 系统 可 以 服务 于 中 古 时 期 多 类 别 的 汉语 语 料 。 
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众所周知 , 汉语 中 词 与 短语 之 间 的 界限 往往 难以 
划分 清楚 ， 这 一 现象 在 中 古 汉语 中 更 为 突出 。 在 汉语 
史上 ， 中 十 是 指 东汉 末年 至 隋 朝 这 段 时 期 ， 此 时 期 汉 
语 正 处 于 质变 期 , 由 于 汉语 中 的 词汇 在 上 古 时 期 以 单 
字 词 为 主 , 在 近代 时 期 以 双 字 词 为 主 而 中 古 时 期 汉 
语 正 处 于 由 单字 词 为 主 向 双 字 词 为 主 转变 的 过 渡 期 ， 
该 过 渡 期 中 存在 大 量 状态 介 于 词 和 短语 之 间 的 字 组 ， 
这 些 字 组 的 情况 各 不 相同 , 有 的 字 组 正人 处 于 词汇 化 的 
进程 中 ,， 有 的 则 是 由 多 个 汉字 临时 组 合 起 来 作为 词 使 
用 。 正 是 这 些 字 组 的 存在 , 使 得 中 古 时 期 词 和 短语 的 
边界 更 加 不 明确 。 在 构建 中 古语 料 库 的 分 词 阶段 ,由 


了 中 


结果 为 训练 语 料 的 前 提 下 ， 也 严重 制约 着 机 器 分 词 准 
确 率 和 一 致 性 的 提高 。 而 分 词 在 汉语 语料库 建设 中 是 
一 项 基础 性 工作 , 它 对 后 续 标 注 、 语 义 分 析 等 起 着 至 
关 重 要 的 作用 。 

中 古 时 期 的 汉语 语 料 相 比 现代 来 说 不 算 多 , 但 其 
规模 也 在 数 亿 字 以 上 , 包含 大 量 史 书 、 佛 经 及 民间 文 
学 、 困 著 类 语 料 趾 。 用 计算 机 处 理 中 古语 料 时 不 可 避 
免 地 要 进行 中 古 汉语 分 词 。 然 而 , 目前 与 古代 汉语 信 
息 处 理 相关 的 研究 成 果 本 就 不 多 , 与 中 古 汉语 相关 的 
分 词 研 究 更 加 少见 。 王 嘉 灵 中 基于 《 汉 书 》 进 行 自动 
分 词 研究 , 制定 了 《 汉 书 》 分 词 规范 , 并 在 加 入 字符 分 
类 、 上 十 音韵 特征 的 基础 上 , 用 CRFs 模型 进行 分 词 
实验 , 实验 结果 的 F 值 达到 94.4%, 但 该 研究 仅 以 汉 


于 各 人 语感 不 同 , 再 加 上 这 些 字 组 发 生词 汇 化 的 时 
期 、 在 具体 文献 中 的 词汇 化 程度 难以 完全 量化 , 这 必 
然 会 造成 中 古 汉语 分 词 上 的 困难 , 不 仅 直接 导致 了 人 
工分 词 结果 中 出 现 的 分 词 不 一 致 现象 , 在 以 人 工分 词 


书 》 为 自动 分 词 的 实验 语 料 , 一 本 书 难以 代表 中 古 时 
期 的 语 料 全 貌 , 再 加 上 中 古 时 期 语 料 类 别 有 很 多 , 各 
类 别 语 料 间 差异 比较 大 , 不 仅 史书 、 佛 经 、 杂 车 等 类 
别 间 存在 差异 , 各 类 别 内 部 ， 如 佛经 语 料 内 部 的 译 经 
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和 僧 传 间 也 存在 词汇 上 的 差异 ， 这 也 使 得 该 研究 成 
果 的 可 扩展 性 大 大 降低 。 王 晓 玉 等 上 从 中 古 时 期 具有 
代表 性 的 语 料 中 抽样 选取 28 万 余 字 作为 实验 对 象 ， 
统计 这 些 语 料 人 工分 词 结果 中 出 现 的 切 分 错误 、 分 词 
不 一 致 、 组 合 型 歧义 字 串 的 数目 及 比例 ,着 重 研 究 分 
词 不 一 致 字 串 产生 的 原因 和 分 类 ,并 提出 解决 方案 
的 设想 ， 该 研究 覆盖 了 中 古 时 期 的 佛经 、 史 书 、 小 说 
类 语 料 , 不 仅 呈现 了 中 古 汉语 人 工分 词 的 大 体 概 貌 ， 
并 找 出 分 词 中 具体 存在 的 问题 ,为 进一步 研究 奠定 
了 基础 。 

在 以 上 研究 的 基础 上 , 本 文 从 理论 和 实践 两 个 层 
面 来 解决 中 古语 料 分 词 中 出 现 的 问题 : 首先 针对 中 十 
汉语 中 易 发 生 分 词 不 一 致 的 字 串 ,制定 并 优化 分 词 规 
范 ， 基 于 此 分 词 规范 校准 人 工分 词语 料 ， 尽 可 能 减少 
人 工分 词 中 出 现 的 切 分 错误 和 分 词 不 一 致 情况 ; 然后 
将 整理 后 的 语 料 作 为 CRFs 训练 语 料 , 引入 字符 分 类 、 
词典 标记 两 种 特征 , 对 两 个 特征 分 别 设置 多 个 特征 模 
板 , 并 进行 对 比 实验 , 挑选 其 中 分 词 效 果 最 好 的 特征 
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语料库 构建 质量 的 关键 。 

“中 古 汉 语词 库 皂 !( 简 称 为 “ 词 库 习 是 中 古 汉语 语 
料 库 项 目的 重要 成 果 之 一 ， 它 主要 涵盖 了 以 下 几 本 词 
典 所 收录 的 词 条 及 义 项 : 《汉语 大 词典 》 呈 、《 魏 晋 南 
北朝 词语 例 释 》 中 《中 古 虚 词语 法 例 释 》《 佛 学 大 
辞典 》 由 《佛经 词语 汇 释 》 钻 。 它 收录 了 中 古 时 期 出 
现 的 绝 大 部 分 词语 , 收录 总 条 目 超 过 54 万 条 。 基 于 该 
“ 词 库 ” 本 文 在 识别 分 词 界 限 不 清 的 字 组 类 分 词 单位 
时 ,由 于 存在 词汇 化 时 间 、 程 度 模糊 难以 确定 的 情况 ， 
为 了 综合 照顾 到 分 词 单位 的 统一 性 、 可 参照 性 及 语义 
完整 性 ， 总体 上 遵照 以 下 三 个 原则 : 

(1) 从 宽 原 则 , 在 不 影响 语义 理解 的 情况 下 ,对 
介 于 词 和 短语 之 间 的 字 组 ,主张 从 合 不 从 分 。 

(2) 词典 原则 ,也 即 黄 居 仁 所 说 的 分 词 的 信 级 [ 
规定 几 收 录 在 “ 词 库 ”中 的 语义 单位 , 一 律 从 合 。 

(3) 词义 透明 原则 ， 本 文 规定 , 词义 不 透明 包括 
以 下 4 种 情况 : 通过 隐喻 或 转 喻 方式 产生 新 义 ; 意义 
发 生 转 指 ; 组 成 成 分 的 意义 有 脱落 现象 ; 词性 发 生 转 


及 模板 ; 最 后 ,基于 已 选 定 的 特征 及 模板 , 设置 两 组 
分 词 对 比 实验 , 分 别 验证 语 料 类 别 和 分 词 一 致 性 对 中 
古 汉语 CRFs 分 词 结果 的 影响 。 该 实验 结果 可 直接 服 
务 于 中 古 汉语 语料库 的 建设 。 


2 分 词 说 明 及 实验 语 料 


2.1 分 词 原则 

汉语 中 词 与 短语 的 界限 往往 难以 划分 清楚 , 但 这 
并 不 妨碍 人 们 对 语言 的 理解 。 同 样 , 在 分 词 时 也 不 必 
纠结 于 语言 学 领域 中 词 与 短语 的 划 界 ， 只 要 在 保证 系 
统 适用 性 、 语 言 单位 颗粒 度 合适 的 情况 下 , 计算 机 可 
以 正确 理解 处 理 语言 单位 即 可 。 这 一 理念 在 词典 收 词 
中 亦 有 所 体现 ， 即 在 保证 语义 理解 正确 的 前 提 下 ,并 
不 强行 区 分 词 和 短语 。 因 此 ， 绝 大 部 分 词典 所 收录 词 
条 的 范围 不 仅仅 包括 词 , 也 包括 一 些 使 用 稳固 的 短 
语 、 习 用 语 等 。 也 正 是 基于 此 ， 自 然 语 言 处 理 领域 中 
引入 分 词 单位 这 一 概念 , 用 来 指 代 自 然 语言 处 理 中 使 
用 的 、 具 有 确定 语义 和 语法 功能 的 基本 单位 四 。 中 古 
汉语 的 词汇 单位 中 存在 许多 介 于 词 和 短语 之 间 的 字 
组 , 在 中 古 汉语 语料库 构建 过 程 中 ,这些 字 组 成 为 产 
生 分 词 不 一 致 问题 的 根源 之 一 , 严重 影响 着 语料库 的 
构建 质量 , 理 清 这 些 字 组 的 分 词 边界 是 提高 中 古 汉语 


变 。 几 满足 词义 不 透明 任 一 种 情况 的 , 一 律 从 合 。 

基于 以 上 三 个 原则 对 人 工分 词 过 程 进 行 优化 , 得 
到 的 分 词 结果 作为 CRFs 自动 分 词 模型 的 训练 语 料 。 
然而 ,由 于 训练 语 料 是 多 人 人 工分 词 的 结果 ， 以 上 三 
个 原则 也 不 能 完全 避免 分 词 不 一 致 现象 握 的 产生 。 因 
此 , 本 文 对 训练 语 料 单独 进行 整理 , 尽量 消除 其 中 存 
在 的 分 词 不 一 致 现象 , 并 设置 对 比 实验 , 将 分 词 不 一 
致 整理 前 和 整理 后 的 语 料 分 别 作为 训练 语 料 ， 验 证 分 
词 不 一 臻 对 自动 分 词 结果 的 影响 。 

2.2 ”实验 语 料 说 明 

中 古 时 期 流传 下 来 数量 最 多 的 文献 种 类 为 史书 类 
和 佛经 类 , 除 此 之 外 ,也 有 较 少 量 民间 文学 (如 小 说 )、 
杂 著 (如 农 书 ) 等 类 别 的 文献 。 因 此 ， 本文 主要 选取 史 
书 、 佛 经 两 类 语 料 作 为 实验 语 料 , 为 使 实验 更 具 代 表 
性 , 也 加 入 少量 小 说 类 语 料 。 分 类 抽取 中 古 时 期 的 文 
献 语 料 作为 实验 语 料 , 结果 如 表 1 所 示 。 

表 1 中 语 料 均 已 初步 完成 人 工分 词 及 标注 。 按 照 
2.1 节 的 分 词 原则 , 校对 表 1 中 语 料 的 分 词 结果 , 尽量 
减少 其 中 存在 的 分 词 不 一 致 现象 , 这 样 就 产生 了 分 词 
一 致 性 整理 前 后 两 批语 料 , 将 测试 语 料 校对 后 的 结 
作为 标准 分 词 结果 。 对 下 文 三 个 实验 语 料 , 分 别 说 明 
如 下 。 


Data Analysis and Knowledge Discovery 


广 binaV i 全 (不甘 工 || 
和 | IINnaX IV 合 作 期 十 | 


有 国耻 | 


研究 文 


表 1 语 料 情况 说 明 表 


训练 语 料 测试 语 料 
语 料 类 别 一 一 一 一 一 一 一 一 一 一 一 一 一 
语 料 来 源 字数 ”总 字数 语 料 来 源 字数 总 字数 
后 汉 书 ( 卷 1、34、74; 卷 2、75、38 未 完 ) 70 344 北齐 书 ( 卷 1-4， 开放 测 试 ) 27 189 
史书 类 三 国志 ( 魏 书 卷 1-3; 卷 4 未 完 ; 吴 书 卷 46、 卷 49) 62093 145 292 44 979 
WA 三 国志 ( 梗 书卷 2， 封闭 测试 ) ”17 790 
陈 书 ( 卷 1-16; 卷 27-36) 12 855 
但 集 百 缘 经 80 588 百 喻 经 (开放 测试 21 552 
佛经 类 本 - 99 157 pe NP 35 209 
杂 壁 喻 经 二 种 18 569 杂 壁 喻 经 一 失 译 (封闭 测试 ) 13 657 
小 说 类 幽 明 录 36718 36718 
总 计 281 167 80 188 


( 注 : “未完 ?表示 实验 时 , 《后 汉 书 》 卷 38 仅 有 部 分 完成 了 人 工 标注 , 但 并 不 影响 将 已 完成 部 分 作为 实验 语 料 。 下 “ 卷 4 未 完 ” 同 。) 


(1) 在 选 定 特征 模板 实验 环节 , 训练 语 料 直 接合 
用 表 1 中 所 有 训练 语 料 的 人 工分 词 结果 ， 从 4 本 测试 
语 料 中 各 选取 一 千 字 , 合 起 来 作为 总 测试 语 料 ; 

(2) 在 分 词 一 致 性 对 分 词 结果 影响 的 对 比 实验 中 ， 
分 别 将 分 词 不 一 致 现象 消除 前 后 的 语 料 作为 训练 语 
料 , 测试 语 料 同 表 1; 

(3) 在 语 料 混杂 度 对 分 词 结果 影响 的 对 比 实验 中 ， 
分 别 将 史书 、 佛 经 、 全 部 语 料 作为 训练 语 料 ,测试 语 
料 同 表 1 。 


3 ”模型 及 特征 模板 选取 


基于 统计 的 分 词 问题 可 视 为 文本 序列 的 分 类 问 
题 , 其 核心 是 在 字 组 中 区 分 出 词 的 起 始 、 中 间 和 结 
位 置 。 在 给 定 观 察 序列 的 条 件 下 , 分 词 模 型 可 以 统计 
出 整个 标注 序列 的 单一 联合 概率 分 布 '， 并 据 此 计算 
或 预测 出 最 可 能 的 输出 序列 。 与 常用 的 几 个 主流 模型 
相 比 ， 如 : 隐 马 尔 科 夫 模型 (8MM)、 最 大 炉 马 尔 科 夫 
模型 (MEMM) 和 条 件 随机 场 模型 (CRFs), 其 中 CRFs 
具有 较为 突出 的 性 能 , 它 不 仅 克 服 了 HMM 强 独立 性 
假设 的 局 限 , 而 且 解 决 了 MEMM 标记 偏 置 问题 3。 
因此 , 本 文选 择 CRFs 作为 实验 模型 , 在 此 基础 上 添加 
不 同 特征 及 特征 模板 , 选择 其 中 实验 效果 最 好 的 特征 
模板 ， 以 提高 分 词 效率 。 

3.1 ”特征 选取 

将 CRFs 模型 应 用 于 分 词 中 , 其 核心 思想 是 充分 挖 
掘 训 练 语 料 (输入 序列 ) 中 构 词 所 用 汉字 的 位 置 知 识 
也 即 特征 ,特征 是 CRFs 分 词 的 核心 , 特征 选取 情况 将 
对 分 词 结果 的 准确 率 产生 直接 影响 。 但 选取 的 特征 并 
不 是 越 多 越 好 ,选取 的 特征 越 多 ，CRFs 模型 提取 特征 
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或 分 词 时 所 需要 搜索 的 数据 也 越 多 , 这 不 仅 对 机 器 性 
能 是 严峻 考验 , 也 容易 使 分 词 结果 的 准确 性 受到 过 度 
宛 余 数据 的 干扰 。 基 于 此 , 本 文选 取 字 符 分 类 和 词典 
标记 作为 CRFs 分 词 特征 , 分 别 说 明 如 下 : 

(1) 字符 分 类 。 字 符 分 类 是 对 语 料 中 字符 的 粗 分 
类 , 这 种 粗 分 类 无 论 在 现代 汉语 中 还 是 古代 汉语 1 
中 ,都 能 对 分 词 结果 准确 率 的 提高 起 到 较为 明显 的 作 
用 。 本 文 所 用 字符 类 别 标注 集 为 : Tl={ HZ，Punc， 
SenPunc, CNum, CCNum, D, X }。 对 应 关系 为 : 汉字 
(HZ)、 普 通 标 点 (Punc)、 句 末 标 点 (SenPunc)、 数 字 
(CNum)、 干支 (CCNum)、“ 第 ” 字 (D)、 未 识别 字符 (X)。 

由 于 古代 汉语 中 数字 用 文字 表示 ,， 且 不 可 能 完全 
枚 举 , 也 就 不 可 能 完全 依靠 统计 方法 实现 自动 分 词 ， 
而 数字 的 表示 又 有 很 强 的 规律 性 : 多 位 数字 由 个 位 数 
字 组 合 而 成 , 个 位 数字 又 是 封闭 的 小 类 ,因此 特别 对 
数字 、 干 文 (与 数字 情况 相 类 似 ) 设 置 了 字符 类 别 。 而 
且 中 十 文献 使 用 的 为 繁体 字 , 也 存在 异体 字 、 疑 难 字 
等 , “未 识别 字符 ”统一 用 来 表示 程序 未 能 识别 出 来 的 
文字 。 字 符 分 类 及 词典 标记 采用 程序 自动 标记 法 。 

(2) 词典 标记 。 本 文 词典 标记 是 动态 标记 语 料 中 
汉字 在 词典 中 组 词 情况 的 信息 。 由 于 CRFs 分 词 模型 
是 基于 统计 学 的 模型 ， 它 主要 依赖 词 频 、 上 下 文 构 词 
信息 来 识别 分 词 单位 的 界限 ， 其 缺点 是 难以 发 现 语 料 
中 频率 较 低 的 词 ， 且 对 语 料 类 别 有 较 强 依 赖 性 。 要 克 
服 这 些 缺 点 ， 有 以 下 两 种 方法 : 

分 词 时 结合 规则 、 词 典 等 信息 。 由 字 组 词 过 程 中 ,可 
供 分 词 使 用 的 字 规 则 十 分 有 限 ,而 词典 是 能 用 于 自动 分 词 
的 不 可 和 忽视 的 资源 , 黄 昌 宁 等 主张 在 语料库 标注 过 程 中 
严格 执行 “ 词 表 了 驱动 原则， 在 没有 歧义 的 情况 下 ,， 词 表 词 应 


当 作 为 一 个 完整 的 切 分 单位 ， 以 保证 分 词 结果 的 一 致 性 。 
“统计 + 词典 ”的 方法 不 仅 能 有 效 利用 统计 类 分 词 模型 便于 通 
过 上 下 文 排除 歧义 、 发 现 新 词 等 优点 ， 也 合理 运用 了 已 有 的 
语言 资源 ， 一定 程度 上 降低 了 完全 基于 统计 方法 需要 大 规 
模 训 练 语 料 的 要 求 ， 能 很 好 提高 自动 分 词 的 准确 率 和 效率 。 

@) 使 用 足够 多 同一 类 型 的 训练 语 料 。 统 计 学 习 方法 在 分 
词 评测 中 效果 更 好 01,， 但 它 需要 大 量 同类 型 的 训练 语 料 ， 再 
加 上 未 登录 词 、 组 合 型 歧义 的 存在 ,使 得 统计 模型 在 现代 汉 
语 分 词 结果 中 的 正确 率 局 限于 0.85 左右 ("1。 而 中 古语 料 数 
量 相对 较 少 , 语 料 类 型 也 不 统一 ， 再 加 上 分 词 规范 等 资源 的 缺 
失 , 采用 该 种 方法 ， 中古 汉 语 CRFs 分 词 的 正确 率 只 会 更 低 。 

基于 以 上 分 析 ， 本 文 在 分 词 时 引入 词典 动态 标记 
语 料 , 将 “ 词 库 ” 作 为 词典 标记 的 依据 ,引入 词典 标记 
标注 集 为 : T2 = { B, M, E, S, W, T, H, F }。 标 注 集中 字 
符 含义 分 别 为 : 词 首 字 (B)、 词 中 字 (M)、 词 尾 字 (E)、 
单字 (S)、 标 点 (W)、 属 于 两 个 词 的 字 (T)、 属 于 三 个 词 
的 字 (H)、 属 于 三 个 词 以 上 的 字 (F)。 

以 《 百 喻 经 》 首 句 语 言 片 断 “ 闻 如 是 : 一 时 佛 住 王 
人 金城 ”为 例 , 动态 标记 词典 信息 的 具体 流程 为 : 将 该 
语言 片断 作 任 意 切 分 , 来 匹配 “ 词 库 ?收录 的 词 目 ， 除 
了 单字 词 外 ， 可 以 匹配 到 “ 闻 如 是 、 如 是 、 一 时 、 王 舍 、 
王 人 铭 城 ”这 5 个 词 , 依据 匹配 情况 可 以 将 语句 片断 中 的 
汉字 分 类 如 下 : 

(1)“ 闻 、 一 ”两 字 分 别 仅 出 现在 “ 闻 如 是 、 一 时 ”的 
词 首位 置 , 因此 “ 闻 、 一 ”两 字 标 记 为 “B”。 

(2) “如 、 是 ”两 字 出 现在 “ 闻 如 是 、 如 是 ”两 个 词 中， 
“ 王 、 舍 ”两 字 出 现在 “ 王 舍 、 王 舍 城 ”两 个 词 中 , 因此 
“如 、 是 、 王 、 侈 ”四 字 标 记 为 “T”。 

(3) “时 、 城 "两 字 分 别 出 现 在 “一 时 、 王 舍 城 ”的 词 


尾 位 置 ， 因此 “时 、 城 ”两 字 标 记 为 “E”。 

(4)“ 佛 、 住 ”两 字 均 在 词典 中 匹配 为 单字 词 , 故 标 
记 为 “S”。 

此 外 , 标点 符号 统一 标记 为 “W”。 最 终 ,基于 “字符 
分 类 ”、“ 词 典 标记 ”， 并 将 校对 后 人 工分 词 结果 作 为 标准 
答案 , 得 到 用 于 CRFs 实验 的 语 料 标准 形式 如 表 2 所 示 。 


表 2 CRFs 语 料 标记 示例 


字符 字符 类 别 词典 标记 标准 答案 

闻 HZ B S 
如 HZ T B 
是 HZ T E 

: Punc W W 
= CNum B B 
时 HZ E E 
佛 HZ S S 
住 HZ S S 
王 HZ T B 
舍 HZ T M 
城 HZ E E 
SenPunc W W 

3.2 ”特征 模板 对 比 实验 


在 CRFs 分 词 模型 中 , 特征 模板 是 运用 特征 提取 
词语 边界 信息 的 有 效 工 具 。 特 征 模 板 的 设 定 直 接 决 定 
能 否 高 效 提 取 到 有 用 的 分 词 信息 ,对 分 词 结果 的 好 坏 
也 有 直接 影响 。 在 训练 、 测 试 语 料 中 先后 加 入 字符 分 
类 、 词 典 标记 作为 分 词 特征 , 并 对 这 两 种 特征 分 别 选 
取 不 同 的 特征 模板 , 对 比 不 同 分 词 模板 作用 下 训练 语 
料 的 分 词 结果 , 实验 结果 如 表 3 所 示 。 


表 3 加 入 字符 分 类 、 词 典 标记 特征 后 分 词 对 比 


特征 仅 字 面 信息 字面 (1W+2C)+ 字 符 分 类 字面 (1W+2C)+ 词 } eh 

统计 结果 1W 2W 1W+2C 2W+2C OW 1W 2C 1W+2C 0W 1W 2@ 1W+2C 
单字 词 数 1710 568 1918 648 1 300 1403 1814 1 384 1 532 1597 1866 1790 1747 
双 字 词 数 970 1 541 866 1501 1 094 1 042 819 1 045 923 906 803 837 833 
多 字 词 数 0 0 0 0 0 0 4 4 16 16 20 20 22 
正确 分 词 数 1 127 849 1 223 885 1120 1135 1354 1 147 1 910 1975 2033 2 164 2 229 
总 P(%) 42.05% 40.26% 43.93% 41.18% 46.78% 46.42% S51.35% 47.14% 77.30% 78.40% 75.60% 81.75% 85.66% 
总 R(%) 43.02% 32.40% 46.68% 33.78% 42.75% 43.32% S51.68% 43.78% 72.90% 75.38% 77.60% 82.60% 85.08% 
总 F(%) 42.53% 35.91% 45.26% 37.11% 44.67% 44.82% Sl1.51% 45.40% 75.03% 76.86% 76.59% 82.17% 85.37% 
双 字 词 正确 数 361 535 334 522 446 414 347 423 592 640 620 634 662 
双 字 词 P(%) 37.22% 34.72% 38.57% 34.78% 40.77% 39.73% 42.37% 40.48% 64.14% 70.64% 77.21% 75.75% 79.47% 
双 字 词 R(%) 47.81% 70.86% 44.24% 69.14% 59.07% 54.83% 45.96% 56.03% 78.41% 84.77% 82.12% 83.97% 87.68% 
双 字 词 F(%) 41.86% 46.60% 41.21% 46.28% 48.24% 46.08% 44.09% 47.00% 70.56% 77.06% 79.59% 79.65% 83.38% 

( 注 : 这 里 的 W 表示 单字 , C 为 共 现 字 , 数字 表示 个 数 , 例如 0W 表示 该 特征 的 当前 字 , 1W+2C 表示 相 邻 字符 窗口 为 +1 、 二 字 共 现 ; 列 名 


中 了 表示 正确 率 , R 表示 召回 率 ,F 表示 上 值 。) 
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从 表 3 可 以 看 出 , 仅 从 字面 信息 提取 分 词 特征 时 ， 
分 词 结果 中 双 字 词 的 F 值 与 总 了 值 之 间 呈 现 出 负 相 关 
关系 。 当 模板 为 1W+2C 时 分 词 结果 总 F 值 最 高 ， 此 时 
双 字 词 F 值 虽 然 最 低 , 但 双 字 词 P 和 总 P、 双 字 词 R 
和 总 RR 间 比 例 稳定 ,其 他 模板 均 切 分 出 过 多 的 双 字 词 ， 
同时 提高 了 双 字 词 的 错误 率 和 召回 率 , 因此 1W+2C 
为 字面 信息 分 词 效果 最 好 的 模板 。 

字符 分 类 信息 能 有 效 地 将 汉字 、 标 点 、 数 字 信 息 
区 分 开 来 , 因此 也 就 对 数字 、 天 干 地 支 等 同类 别 汉字 
组 成 的 分 词 单位 分 词 效果 尤为 明显 。 加 入 该 特征 后 ， 
总 了 值 提 高 了 约 6%， 双 字 词 的 F 值 也 有 所 提高 ， 当 分 
词 模板 为 2C 和 1W+2C 时 , 还 正确 切 分 出 了 三 字 及 以 
上 的 数 词 。 从 表 3 可 以 看 出 , 字符 分 类 信息 总 体 分 词 
效果 最 好 的 模板 为 2C。 

词典 是 收录 词语 的 权威 工具 , 加 入 词典 标记 特征 
后 ， 分 词 结果 的 F 值得 到 大 幅 提升 ,并 且 双 字 词 的 了 
值 与 总 下 值 间 的 关系 变 为 正 相 关 , 分 词 效果 最 好 的 词 
典 标 记 模 板 显然 为 1W+2C, 在 该 模板 的 作用 下 , 分 词 
结果 的 总 F 值 比 仅 为 字面 信息 时 提高 了 39.91%。 

综 上 所 述 ,如 表 3 中 粗 体 所 示 , 分别 选 取 : 字面 信 
息 、 词 典 标记 特征 模板 为 1W+2C, 也 即 相 邻 字符 窗口 
为 +1 、 二 字 共 现 ; 字符 分 类 特征 模板 为 2C, 也 即 二 字 
共 现 。 选取 该 模板 作为 实验 的 总 特征 模板 , 表示 如 下 。 
Template-all = (2C)sitig + (I W+2C)st2¥ + (1 W+2C yisa 
4 实验 设计 与 评价 标准 
4.1 实验 设计 

从 理论 上 来 说 ，CRFs 分 词 模型 中 ,所 选取 的 实验 
语 料 类 别 越 统一 ， 越 利于 提取 到 有 规律 的 分 词 信息 。 
而 中 古 时 期 的 史书 、 佛 经 等 语 料 间 存在 较 大 语言 、 词 
汇 方 面 的 差异 , 语 料 类 别 必然 也 会 对 CRFs 分 词 结果 
产生 一 定 影响 。 因 此 设置 以 下 两 组 对 照 实验 : 

实验 1 分 词 一 致 性 影响 : 对 人 工分 词 结果 进行 一 
致 性 整理 ,分 别 选取 分 词 一 致 性 整理 前 后 的 语 料 作为 
训练 语 料 ， 以 考察 训练 语 料 分 词 一 致 性 对 CRFs 分 词 
结果 的 影响 。 

实验 2 语 料 混杂 度 影 响 : 选取 分 词 一 致 性 整理 后 
的 语 料 ， 分 别 将 史书 、 佛 经 单独 分 词 结果 与 综合 起 来 
的 分 词 结果 作为 训练 语 料 以 考察 语 料 类 别 混杂 度 对 
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CRFs 分 词 结果 的 影响 。 
4.2 评价 标准 

以 校对 后 的 人 工分 词 结果 为 衡量 标准 ， 以 准确 
率 、 召 回 率 、F 值 为 评价 指标 。 准 确 率 (Precision, 简 
写 为 P) 也 叫 查 准 率 ,本 文中 表示 CRFs 分 词 结果 中 的 
正确 率 ; 召回 率 (Recall, 简写 为 R) 又 叫 查 全 率 , 本 文 
中 表示 CRFs 分 词 结果 中 正确 分 词 数 与 标准 分 词 结果 
的 比率 ;下 值 是 这 两 个 指标 的 综合 评价 。 三 者 的 计算 公 
式 分 别 为 : 


P=RW/AW 
R=RW/SW 
F= PxRx2/(P+R) 
其 中 , RW 表示 CRFs 分 词 结果 中 正确 分 词 的 词 目 ， 
AW 表示 CRFs 分 词 结果 的 总 词 数 ，SW 表示 人 工分 词 
结果 中 的 总 词 数 。 
P R 的 取 值 范围 在 0 和 1 之 间 ,F 的 取 值 范围 在 P 
和 及 之 间 , 这 三 者 数值 越 接近 1, 代表 分 词 效 果 越 好 。 
P 和 及 从 不 同方 面 评价 了 分 词 模型 , F 值 则 反映 了 两 者 
的 综合 评价 。 


5 数据 及 分 析 


在 CRFs 工具 中 使 用 上 文 实验 得 出 的 模板 Template- 
all， 对 训练 语 料 进行 训练 , 将 训练 得 到 的 模型 按照 实 
验 设计 分 别 进行 封闭 测试 和 开放 测试 。 
S.1 封闭 测试 

将 训练 语 料 进行 分 词 一 致 性 整理 , 分 别 用 CRFs 
模型 训练 整理 前 后 的 训练 语 料 ， 并 对 测试 语 料 进行 圭 
闭 测试 ,以 验证 分 词 一 致 性 对 CRFs 自动 分 词 结果 的 
影响 , 实验 结果 如 表 4 所 示 。 

本 实验 中 ,F 值 是 最 重要 的 性 能 评价 指标 ， 因 此 在 
对 比 实验 结果 时 ， 主 要 基于 下 值 的 变化 情况 来 说 明 实 
验 结果 , 如 表 4 中 粗 体 字 部 分 ,可 以 得 出 以 下 结论 : 

(1) 对 语 料 进 行 分 词 一 致 性 整理 后 ， 可 以 通过 
上 下 文 、 字 符 分 类 、 词 典 标记 三 个 特征 获取 较为 准 
确 一 致 的 分 词 边界 信息 ， 其 词语 的 分 合 规律 变 得 更 
加 有 迹 可 循 ， 因 此 分 词 结果 的 总 F 值得 到 明显 提升 ， 
其 中 史书 类 语 料 提升 了 15.70%， 佛 经 类 语 料 提升 了 
12.38%。 

(2) 分 词 单位 的 字数 越 多 , 分 词 一 致 性 整理 对 其 
分 词 结果 的 影响 越 显著 。 经 过 一 致 性 整理 后 ,， 所 有 词 、 
双 字 词 、 多 字 词 ， 随 着 词 字数 的 增加 , 分词 结果 的 F 
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表 4 分 词 一 致 性 对 CRFs 分 词 结果 影响 (封闭 测试 ) 
训练 测试 分 词 结 果 (CRFs 分 词 结果 的 词 数 与 PRF 值 ) 
囊 练 ” 商 
语 料 语 料 时 了 双 字 多 字 总 P 总 及 总 下 F 值 ” 双 字 词 双 字 词 双 字 词 F 值 ”多 字 词 多 字 词 多 字 词 F 值 
词 词 词 ” (%) (%) (%) ”变化 率 P(%) ”RR(%) ”F(%) 变化 率 P(%)  R(%) F(%) 变化 率 
原 语 料 ” 《7764 3263 80 82.05% 85.62% 83.79% + 81.67% 80.86% 81.26% + 70.00% 20.59% 31.82% + 
一 致 后 7 058 3 309 270 99.53% 99.46% 99.50% 15.70% 99.21% 99.61% 99.41% 18.15% 98.89% 98.16% 98.52% 66.71% 
原 语 料 5333 2 690 70 88.08% 85.67% 86.86% + 78.55% 89.95% 83.87% + 50.00% 26.12% 34.31% + 
一 臻 后 5 823 2355 136 99.28% 99.21% 99.24% 12.38% 99.07% 99.32% 99.19% 15.33% 91.91% 93.28% 92.59% 58.28% 


值 提升 效果 也 越 来 越 明 显 。 这 是 因为 产生 分 词 不 一 致 
的 均 为 双 字 词 及 多 字 词 ,而 “ 词 库 ”以 双 字 词 和 多 字 词 
的 收录 为 主 , 词典 标记 强化 了 双 字 词 和 多 字 词 的 特征 
提取 。 

(3) 多 字 词 的 F 值 提 升 率 高 达 58% 至 67%， 远 高 
于 总 上 值 和 双 字 词 F 值 的 变化 率 , 这 是 因为 分 词 单位 
的 字数 越 多 ,其 在 文献 中 出 现 的 频率 就 越 低 ,分 词 结 
果 也 就 越 容 易 受 到 分 词 不 一 致 的 干扰 。 


表 5 


语 料 混 杂 度 对 CRFs 分 词 结 


(4) 分 词 一 致 性 对 佛经 类 语 料 影响 稍 弱 于 史书 类 
语 料 。 这 是 由 佛经 语 料 的 特异 性 造成 的 , 佛经 是 翻译 
过 来 的 文献 , 语言 变异 现象 较 多 , 也 更 难 提取 到 规律 
性 的 分 词 边界 信息 。 

选取 分 词 一 致 性 整理 后 的 语 料 ， 分 别 将 史书 、 佛 
经 类 语 料 与 综合 后 的 语 料 作 为 训练 语 料 , 来 验证 语 料 
类 别 混杂 度 对 CRFs 分 词 结果 的 影响 ,实验 结果 如 表 5 
所 示 。 


影响 (封闭 测试 ) 


分 词 结 果 (CRFs 分 词 结果 的 词 数 与 PRF 值 ) 


WESDI ys a ee 5 RE 有 

语 料 语 料 单字 双 字 多 字 总 P 总 R 总 EF FF 值 双 字 词 双 字 词 双 字 词 FE 值 多 字 词 多 字 词 多 字 词 F 值 
词 词 词 (%)  (%) (%) ”变化 率 P(%)  R(%)  F(%) 变化 率 P(%)  R(%) F(%) ”变化 率 

史书 7764 3 263 80 99.73% 99.71% 99.72% | 99.61% 99.79% 99.70% | 99.26% 98.90% 99.08% | 

[en 

综合 ”7058 3309 270 99.53% 99.46% 99.50% 0.22% 99.21% 99.61% 99.41% 0.29% 98.89% 98.16% 98.52% 0.56% 

佛经 确 经 5333 2690 70 99.44% 99.45% 99.44% | 99.53% 99.32% 99.42% | 93.43% 95.52% 94.46% | 

综合 ”5823 2355 136 99.28% 99.21% 99.24% 0.20% 99.07% 99.32% 99.19% 0.23% 91.91% 93.28% 92.59% 1.87% 


表 5 反映 出 , 将 不 同类 别 语 料 混同 起 来 用 作 训 练 
语 料 时, 分 词 结果 下 值 总 体 呈 下 降 趋势 ,具体 而 言 ,从 
表 5 可 以 看 出 : 区 分 不 同类 别 的 语 料 ( 史 书 、 佛 经 ) 后 ， 
总 下 值 均 提 高 了 不 到 0.3%。 说 明 中 十 时 期 不 同类 别 语 
料 间 虽然 存在 差异 , 这 种 差异 对 CRFs 分 词 结果 也 造 
成 一 定 影响 , 但 总 体 而 言 影 响 并 不 十 分 大 , 远 远 低 于 


分 词 不 一 致 对 分 词 结果 的 影响 。 
5.2 ”开放 测试 

按照 表 1 对 语 料 进行 开放 测试 ,分别 将 分 词 一 致 
性 整理 前 后 的 人 工分 词语 料 作为 训练 语 料 ,， 进一步 验 
证 开放 测试 中 分 词 一 致 性 对 CRFs 自动 分 词 结果 的 影 
响 ， 实 验 结果 如 表 6 所 示 。 


表 6 分 词 一 致 性 对 CRFs 分 词 结 果 影 响 ( 开 放 测 试 ) 

分 词 结 果 (CRFs 分 词 结果 的 词 数 与 PRF 值 ) 
语 料 “ 语 料 单字 双 字 多 字 总 P 总 R 总 F F 值 双 字 词 双 字 词 双 字 词 F 值 多 字 词 多 字 词 多 字 词 F 值 

词 词 词 (9 (%) (9%) 变化 率 P(%) R(%) F(%) 变化 率 P(%) R(%) F(%) 变化 率 
原 语 料 10745 5520 230 80.24% 85.27% 82.67% 1 83.22% 84.51% 83.86% + 62.17% 20.11% 30.39% + 
一 致 后 9834 5503 513 88.73% 90.61% 89.66% 6.98% 89.71% 90.82% 90.26% 6.40% 71.73% 51.76% 60.13% 29.74% 
原 语 料 佛经 8482 4203 76 92.30% 88.46% 90.34% 1 81.51% 94.72% 87.62% + 60.53% 52.87% 56.44% + 
一 臻 后 9113 3875 84 95.35% 93.61% 94.47% 4.13% 89.91% 96.32% 93.01% 5.38% 65.48% 63.22% 64.33% 7.89% 


表 6 中 可 得 到 的 与 封闭 测试 一 致 的 结论 不 再 
获 言 ,与 之 不 同 的 是 : 对 训练 语 料 进行 一 致 性 整 


理 后 , 虽然 没有 封闭 测试 提升 效果 那么 明显 , 但 
开放 测试 分 词 结果 的 总 F 值 仍 然 得 到 明显 提升 ， 
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其 中 史书 类 语 料 提 升 了 6.98%, 佛教 类 语 料 提升 了 
4.13%。 
选取 分 词 一 致 性 整理 后 的 语 料 , 分 别 将 史书 、 佛 
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经 类 语 料 与 综合 后 的 语 料 作为 训练 语 料 ， 以 进一步 验 
证 开放 测试 中 语 料 类 别 混杂 度 对 CRFs 分 词 结果 的 影 
响 ， 实验 结果 如 表 7 所 示 。 


表 7 语 料 混杂 度 对 CRFs 分 词 结果 影响 (开放 测试 ) 


分 词 结果 (CRFs 分 词 结果 的 词 数 与 PRF 值 ) 


训练 测试 

字 双 字 多 字 总 芒 局 

人 
且 


口 


E 


F 值 ” 双 字 词 双 字 词 双 字 词 F 值 变化 多 字 词 多 字 词 多 字 词 F 值 变 
词 词 (%) (%) (%) ”变化 率 P(%) 


R(%)  F(%) 到 P(%)  R(%) Fo%) 化 率 


68.82% 50.91% 58.53% 1 


65.79% 57.47% 61.35% ‘ 


史书 9668 5562 526 88.61% 89.94% 89.27% + 88.76% 90.82% 89.78% + 

综合 9 834 5503 513 88.73% 90.61% 89.66% 0.39% 89.71% 90.82% 90.26% 0.48% 71.73% 51.76% 60.13% 1.60% 
佛经 本 3 902 76 94.82% 93.02% 93.91% + 89.06% 96.07% 92.43% + 

综合 9 113 3 875 


84 95.35% 93.61% 94.47% 0.56% 89.91% 96.32% 93.01% 0.57% 65.48% 63.22% 64.33% 2.98% 


结合 表 5， 从 表 7 中 可 以 得 出 以 下 两 个 结论 : 

(1) 在 不 区 分 训练 语 料 类 别 的 情况 下 ,开放 测试 
中 分 词 结果 的 下 值 有 所 上 升 。 而 封闭 测试 中 , 分 词 结 
果 的 下 值 却 下 降 了 ,封闭 实验 和 开放 实验 的 结果 呈 相 
反 趋势 。 

(2) 与 封闭 测试 相 比 , 开放 测试 中 总 F 值 的 变化 
较 大 且 呈 上 升 趋势 , 但 无 论 上 升 还 是 下 降 ， 变化 幅度 
均 不 超过 1%, 与 分 词 一 致 性 对 结果 的 影响 相 比 , 小 得 
多 且 不 稳定 。 

这 两 个 结论 说 明 , 语 料 类 别 的 差异 会 影响 人 们 的 
语感 ， 从 而 加 剧 分 词 不 一 致 ， 因 此 对 语 料 类 别 细 分 类 
会 提高 分 词 效 果 ; 在 优化 分 词 标准 后 , 一 定 程度 上 消 
除了 分 词 不 一 致 现象 , 不 同类 别 的 语 料 间 词汇 差别 并 
没有 想象 中 那么 大 , 对 语 料 类 别 进行 细 分 后 ,由 于 训 
练 语 料 数量 的 减少 , 分 词 效 果 反 而 会 打折 扣 。 

综合 以 上 实验 , 在 CRFs 分 词 中 , 按 语 料 类 别 细 分 
类 对 分 词 结果 稍 有 贡献 , 但 在 语 料 总 量 有 限 ,特别 是 
各 类 别 语 料 数 量 不 均衡 、 数 量 不 够 大 的 情况 下 , 由 于 
细 分 语 料 就 相当 于 减少 了 单个 实验 的 训练 语 料 , 反而 
会 降低 分 词 效 率 。 而 分 词 是 否 一 致 是 评测 训练 语 料 质 
量 好 坏 的 重要 标准 之 一 ,在 很 大 程度 上 影响 着 分 词 结 
果 的 整体 质量 。 


6 结 语 


本 文 针 对 中 古 这 一 特殊 时 期 的 多 种 语 料 , 制定 分 
词 原则 ,优化 了 分 词 过 程 ,然后 通过 人 工 校 对 ,尽量 
减少 语 料 中 存在 的 分 词 不 一 致 现象 。 引 入 字符 分 类 及 
词典 标记 特征 , 通过 CRFs 对 比 实 验 选取 分 词 效果 最 
好 的 模板 , 实现 词典 与 统计 相 结 合 的 自动 分 词 方法 。 
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可 以 看 出 , 字符 分 类 、 词 典 标记 特征 有 效 利 用 了 汉字 
构 词 、 已 有 的 中 十 词 库 信息 , 加 入 字符 分 类 和 词典 标 
记 特 征 后 ,分 词 结果 的 总 E 值 分 别提 高 5% 和 35% 以 
上 , 不 仅 节省 了 人 力 , 也 获得 了 更 好 的 分 词 效果 。 本 文 
实验 证 明 : 中 十 汉 语 分 词 一致 性 对 自动 分 词 结果 的 影 
响 十 分 显著 ， 对 训练 语 料 进 行 一 致 性 整理 后 ,封闭 测 
试 中 分 词 结果 的 总 F 值 均 提 高 了 10% 以 上 ,开放 测试 
中 分 词 结果 的 总 下 值 提 高 了 3% 至 7%; 区 分 不 同 语 料 
对 分 词 结果 的 影响 较 小 , 不 足 1%, 但 由 于 中 古语 料 数 
量 有 限 ， 细 分 语 料 类 别 必 然 会 造成 单个 实验 训练 语 料 
的 减少 , 反而 可 能 会 降低 分 词 效率 。 因 此 在 处 理 好 分 
词 一 致 性 的 前 提 下 ,中 十 汉语 自动 分 词 不 必 区 分 处 理 
不 同 语 料 。 

本 文 一 致 性 规范 的 对 象 仅 限 于 双 字 词 ， 多 字 词 的 
处 理 效 果 虽 然 提 升 显著 , 但 在 开放 测试 中 仅 有 60% 左 
右 ， 仍 然 不 十 分 理想 , 在 未 来 的 工作 中 笔者 将 考虑 : 

(1) 研究 多 字 词 的 分 词 不 一 致 情况 ， 并 制定 相应 
的 分 词 规范 , 进一步 提高 训练 语 料 的 分 词 一 致 性 ; 

(2) 完善 “ 词 库 ” 增强 其 对 中 古语 料 中 分 词 单位 
的 覆盖 面 ; 

(3) 在 词典 标记 特征 中 加 入 最 长 匹配 标记 ,提高 
低频 多 字 词 的 识别 率 。 
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Automatically Segmenting Middle Ancient Chinese Words with CRFs 


Wang Xiaoyu Li Bin 
(School of Chinese Language and Literature, Nanjing Normal University, Nanjing 210097, China) 


Abstract: [Objective] The purpose of this paper is to explore the influence of the word segmentation consistency and 
the corpus types in Middle Ancient Chinese (MAC). It tries to Improve the accuracy and efficiency of the automatic 
word segmentation, a basic procedure in processing ancient Chinese, based on the CRFs model. [Methods] First, we 
optimized the segmentation principles for MAC historical records, Buddhist scriptures and novels. Then, we combined 
the CRFs model with dictionary to reduce the segmentation inconsistency in the manual procedures. Finally, we added 
two features to the CRFs model (i.e. character classification and dictionary information), and identified the best word 
segmentation template by comparison experiments. [Results] The F-score was higher than 99% in the closed test, while 
it was from 89% to 95% in the open test. [Limitations] The segmentation consistency was improved on the words with 
two characters, and more studies were needed on the segmentation of words with more than three characters. 
[Conclusions] The proposed method could effectively improve the accuracy of automatic word segmentation for 
mediaeval Chinese corpus. 
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IMLS 资助 Educopia 和 UNC SILS 研究 以 改进 原生 数字 资源 存档 
工作 流 的 开放 源码 软件 


Educopia( 一 个 非 营利 性 的 组 织 ， 旨 在 促进 文化 、 科 学 和 学 术 机 构 之 间 的 合作 ) 和 北 卡 罗莱 大 学 信息 和 图 书馆 科学 学 院 
(UNC SILS) 已 从 美国 博物 馆 和 图 书馆 服务 研究 所 (Institute of Museum and Library Services, IMLS) 获 得 价值 超过 68 万 美元 的 
资助 ,用 于 支持 OSSArcFlow 项 目 ， 该 项 目 则 在 调研 图 书馆 、 档 案 馆 和 博物 馆 采 用 开源 工具 的 情况 并 提供 支持 。 研 究 团 队 将 
与 12 家 合作 机 构 进 行 合 作 , 共同 研究 、 设 计 和 测试 实施 三 大 领先 的 开源 软件 (OSS) 技 术 : BitCurator 环境 ，ArchivesSpace 和 
Archivematica。 

通过 与 多 种 规模 和 类 型 的 机 构 合 作 , 该 项 目的 调查 人 员 将 能 够 收集 到 重要 的 意见 ， 这 将 使 许多 图 书馆 和 档案 馆 受 益 。 最 
终 , 所 有 项 目 成 果 包 括 陈述 、 工 作 流程 、 总 结 结果 、 培 训 模块 和 指南 ， 都 将 得 到 广泛 传播 ， 以 帮助 其 他 机 构成 功 地 采用 开源 
的 数字 化 策略 和 保存 工具 。 

北 卡 罗莱 大 学 信息 和 图 书馆 科学 学 院 教授 , 项 目 主要 研究 人 员 Christopher Lee 说 : “我 们 的 目标 是 使 得 图 书馆 、 档 案 馆 也 
博物 馆 实 施 数字 化 管理 工具 的 艰巨 任务 变 得 更 加 容易 。 该 项 目 将 发 现 并 支持 更 有 效率 、 更 有 效 的 数字 化 保存 工具 , 来 促进 图 
书馆 和 档案 馆 的 努力 ， 从 而 确保 全 人 类 对 日 益 增长 的 原生 数字 化 文化 遗产 的 持续 访问 。” 

该 项 目的 合作 机 构 包 括 杜 克 大 学 、 麻 省 理工 学 院 、 纽 约 公立 图 书馆 、 纽 约 大 学 、 莱 斯 大 学 和 斯 坦 福 大 学 等 。 

(编译 自 : https://sils.unc.edu/news/2017/OSSArcFlow) 
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